#modelo costo

Mueve la consulta, no el caché: atención entre instancias GPU

Mueve la consulta en lugar del caché KV y reduce la latencia en atención entre GPUs. Optimiza clusters H100 con RDMA.